
import openpyxl
import pandas as pd
import requests
from bs4 import BeautifulSoup
file = "D:\学习资料\爬虫\lsy.txt"#创建文件对象地址
j = open(file, 'r')#打开文件
p = j.readlines()#逐个读取文件里的网址，并保存至列表p
o = p[1]#第一个网址
u = p[0]#第二个网址
j.close()#关闭文件text
r=requests.get(o,timeout=30)#获取网页
print(r)
print(type(r))
#<Response [404]>
r.encoding = 'utf-8'#设定编码
soup=BeautifulSoup(r.text,"html.parser")#转变为response对象
pic=soup.find('div',class_="news_title")#获取对应元素内容
ws=pic.find('a')
wb=ws.attrs['title']
print(pic)
print(type(pic))#获取对应元素内容的类型
print(wb)
print(type(wb))#获取对应元素内容的类型
f=[]
f.append(wb)
wb=pd.DataFrame([wb])
df2 = pd.read_html(u)#读取第一个网址并保存至df1
print(df2[1])#输出第1个列表的指定元素
print(type(df2[1]))
df2[1].to_excel('lsy666.xlsx',sheet_name='lsy66',index=False)#创建一个exel并写入第一个元素
book =openpyxl.load_workbook('lsy666.xlsx')#打开上述excel
writer=pd.ExcelWriter('lsy666.xlsx')#创建新的工作对象，
writer._book = book#将原来的数据保存
wb.to_excel(writer, sheet_name='lsy', index=False)#写入第二个元素并保存至第二个工作表
writer._save()#保存文件
